Besides the recent impressive results on reinforcement learning (RL), safety is still one of the major research challenges in RL. RL is a machine-learning approach to determine near-optimal policies in Markov decision processes (MDPs). In this paper, we consider the setting where the safety-relevant fragment of the MDP together with a temporal logic safety specification is given and many safety violations can be avoided by planning ahead a short time into the future. We propose an approach for online safety shielding of RL agents. During runtime, the shield analyses the safety of each available action. For any action, the shield computes the maximal probability to not violate the safety specification within the next $k$ steps when executing this action. Based on this probability and a given threshold, the shield decides whether to block an action from the agent. Existing offline shielding approaches compute exhaustively the safety of all state-action combinations ahead of time, resulting in huge computation times and large memory consumption. The intuition behind online shielding is to compute at runtime the set of all states that could be reached in the near future. For each of these states, the safety of all available actions is analysed and used for shielding as soon as one of the considered states is reached. Our approach is well suited for high-level planning problems where the time between decisions can be used for safety computations and it is sustainable for the agent to wait until these computations are finished. For our evaluation, we selected a 2-player version of the classical computer game SNAKE. The game represents a high-level planning problem that requires fast decisions and the multiplayer setting induces a large state space, which is computationally expensive to analyse exhaustively.
translated by 谷歌翻译
Deep generative models parametrized up to a normalizing constant (e.g. energy-based models) are difficult to train by maximizing the likelihood of the data because the likelihood and/or gradients thereof cannot be explicitly or efficiently written down. Score matching is a training method, whereby instead of fitting the likelihood $\log p(x)$ for the training data, we instead fit the score function $\nabla_x \log p(x)$ -- obviating the need to evaluate the partition function. Though this estimator is known to be consistent, its unclear whether (and when) its statistical efficiency is comparable to that of maximum likelihood -- which is known to be (asymptotically) optimal. We initiate this line of inquiry in this paper, and show a tight connection between statistical efficiency of score matching and the isoperimetric properties of the distribution being estimated -- i.e. the Poincar\'e, log-Sobolev and isoperimetric constant -- quantities which govern the mixing time of Markov processes like Langevin dynamics. Roughly, we show that the score matching estimator is statistically comparable to the maximum likelihood when the distribution has a small isoperimetric constant. Conversely, if the distribution has a large isoperimetric constant -- even for simple families of distributions like exponential families with rich enough sufficient statistics -- score matching will be substantially less efficient than maximum likelihood. We suitably formalize these results both in the finite sample regime, and in the asymptotic regime. Finally, we identify a direct parallel in the discrete setting, where we connect the statistical properties of pseudolikelihood estimation with approximate tensorization of entropy and the Glauber dynamics.
translated by 谷歌翻译
引入后二十年多,退火重要性采样(AIS)仍然是边际可能性估计的最有效方法之一。它依赖于一系列分布序列在可聊天的初始分布和利益的目标分布之间插值,我们从大约使用非均匀的马尔可夫链中模拟了分布。为了获得边际可能性的重要性采样估计,AIS引入了扩展的目标分布,以重新持续马尔可夫链提案。尽管已经大量努力通过更改AIS使用的提案分布,通过更改中间分布和相应的马尔可夫内核,但不被评估的问题是AIS使用方便但次优的扩展目标分布。这可能会阻碍其性能。我们在这里利用基于分数的生成建模(SGM)的最新进展来近似与Langevin和Hamiltonian Dynamics离散化相对应的AIS建议的最佳扩展目标分布。我们在许多合成基准分布和变异自动编码器上展示了这些新颖的,可区分的AIS程序。
translated by 谷歌翻译
AI目标通常很难正确指定。有些方法通过规范AI的副作用来解决此问题:代理必须用不完美的代理目标来权衡“他们造成了多少混乱”。我们通过援助游戏框架提出了一个正式的副作用正规化标准。在这些游戏中,代理解决了一个可观察到的马尔可夫决策过程(POMDP),代表了其对其应优化目标函数的不确定性。我们考虑在以后的时间步骤向代理揭示真正目标的设置。我们证明,通过将代理人奖励与代理商实现一系列未来任务的能力进行交易,可以解决此POMDP。我们通过在两个环境环境中的地面真相评估来证明问题形式化的合理性。
translated by 谷歌翻译
我们将解决多车程路由问题解释为马尔可夫的团队游戏,其成本部分可观察到。为了为一组给定的客户提供服务,游戏代理(车辆)的共同目标是确定最佳的总成本的团队最佳代理路线。因此,每个代理商仅观察自己的成本。我们的多机构增强学习方法,即所谓的多机神经重写者,建立在单格神经重写者的基础上,以通过迭代重写解决方案解决该问题。并行代理操作执行和部分可观察性需要游戏的新重写规则。我们建议在系统中引入一个所谓的池,该池是未访问的节点的收集点。它使代理商能够同时采取行动并以无冲突的方式交换节点。我们仅在学习过程中仅分享对代理的成本的有限披露。在推断期间,每个代理人都完全基于其自身的成本来表现出来。小问题大小的首先经验结果表明,我们达到的性能接近所采用的Or-Tools基准,该基准在完美的成本信息设置中运行。
translated by 谷歌翻译
本文提出了一种简单的方法,用于使用自由形式分类器(即CAIF采样)基于加权逻辑来控制文本生成。使用任意文本分类器,我们将语言模型逻辑的一小部分调整为指导文本生成,以远离分类器预测。我们试验了避免毒性和情感控制任务,并表明该方法在PPL和DESS准确度指标上基于生成的文本的外部分类器而显着优于最近的PPLM,GEDI和DEXPERTS。此外,与其他方法相比,它更容易实施和调整,并且限制和要求较少。
translated by 谷歌翻译
几乎可以肯定(或使用概率)满足安全限制对于在现实生活中的增强学习(RL)的部署至关重要。例如,理想情况下,平面降落和起飞应以概率为单位发生。我们通过引入安全增强(SAUTE)马尔可夫决策过程(MDP)来解决该问题,在该过程中,通过将其扩大到州空间并重塑目标来消除安全限制。我们表明,Saute MDP满足了Bellman方程,并使我们更加接近解决安全的RL,几乎可以肯定地满足。我们认为,Saute MDP允许从不同的角度查看安全的RL问题,从而实现新功能。例如,我们的方法具有插件的性质,即任何RL算法都可以“炒”。此外,国家扩展允许跨安全限制进行政策概括。我们最终表明,当约束满意度非常重要时,SAUTE RL算法的表现可以胜过其最先进的对应物。
translated by 谷歌翻译
我们提出了连续重复的退火流传输蒙特卡洛(CRAFT),该方法结合了顺序的蒙特卡洛(SMC)采样器(本身是退火重要性采样的概括)与使用归一化流量的变异推断。直接训练了归一化的流量,可用于使用KL差异进行每个过渡,以在退火温度之间运输。使用归一化流/SMC近似值估算了此优化目标。我们从概念上展示并使用多个经验示例,这些示例可以改善退火流运输蒙特卡洛(Arbel等,2021),并在其上建造,也可以在基于马尔可夫链蒙特卡洛(MCMC)基于基于的随机归一化流(Wu等人。2020)。通过将工艺纳入粒子MCMC中,我们表明,这种学识渊博的采样器可以在具有挑战性的晶格场理论示例中获得令人印象深刻的准确结果。
translated by 谷歌翻译
结构分布,即组合空间的分布,通常用于学习观察到数据的潜在概率表示。然而,缩放这些模型是由高计算和内存复杂度相对于潜在表示的大小的瓶颈。诸如隐藏的马尔可夫模型(HMMS)和概率的无内容语法(PCFG)的常见模型在隐藏状态的数量中需要时间和空间二次和立方。这项工作展示了一种简单的方法来降低大类结构化模型的计算和内存复杂性。我们展示通过将中央推理步骤视为矩阵 - 矢量产品,并使用低秩约束,我们可以通过等级进行模型表达性和速度。用神经参数化结构化模型进行语言建模,复音音乐建模,无监督语法诱导和视频建模的实验表明,我们的方法在提供实用加速度的同时匹配大状态空间的标准模型的准确性。
translated by 谷歌翻译
傅里叶神经运营商(FNO)是一种基于学习的方法,用于有效地模拟部分微分方程。我们提出了分解的傅立叶神经运营商(F-FNO),允许与更深的网络更好地推广。通过仔细组合傅里叶分解,跨所有层,Markov属性和残差连接的共享内核积分运算符,F-FNOS在Navier-Stokes基准数据集的最动力设置上达到六倍的误差。我们表明我们的模型保持了2%的错误率,同时仍然比数值求解器更快地运行幅度,即使问题设置扩展到包括诸如粘度和时变力的附加上下文,也是如此。这使得与相同的预制神经网络能够模拟巨大不同的条件。
translated by 谷歌翻译